海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
对实验图像进行伪造和篡改已经成为学术不端的一种重要形式,相比于文本部分进行抄袭检查已经实现了软件化,对图像部分进行同样的软件检查则一直比较困难。仅仅依靠人工审核的话,即便是专职从事这种检查的 Elisabeth Bik,每天也只能阅读100篇左右的论文。面对每年海量的论文发表需求,一大批期刊出版商正在不同程度的引入AI工具对手稿中的图像进行检查,以最大程度的保证在出版之前发现问题。
在研究论文中发现重复图像的人工智能软件可以比手动检查器更快、更大规模地工作——但仍需要编辑监督。
图源:Laurence Dutton/Getty
自 2021年1月起,在美国癌症研究协会 (AACR) 旗下的十种期刊上发表的所有论文,都要增加一道检查流程:在同行评审后使用AI检查论文手稿中的所有图片,目的是提醒编辑注意重复的图像,包括那些部分被旋转、过滤、翻转或者拉伸过的图像。相比于文本抄袭,有关图片的伪造可能更加隐蔽、不容易被发现。2016 年,由著名学术侦探、微生物学家 Elisabeth Bik 领导一项研究对约20000篇生物医学论文进行了人工分析,多达 4%的论文可能有图像问题,而通常每年只有大约1%的论文得到更正,被撤回的则更少。不管作者出于何种目的对图像进行了某种程度的“美化”,出版商都希望能够在论文发表之前就发现问题,因为发表了有问题的论文对期刊的声誉会有严重的负面影响。为此许多期刊聘请了专门的人员以人工方式检测手稿中的图像,但是这种方式费时费力而且结果往往争议较大。AACR 可能是业内最早的一批使用AI进行图像检查的出版商。根据 Nature 的统计,在过去的一年里,至少有四家出版商开始引入AI工具,希望以此来提高审核的效率和准确率。AACR 期刊运营主管 Daniel Evanko 表示,他们尝试了多种软件产品,最终选择了以色列 Rehovot 公司的 Proofig 服务。Proofig 从论文中提取图像,并将它们成对地进行比较,以找出可能存在的共同特征,一般在一两分钟之内就可以检查完一篇论文。该公司的创始人 Dror Kolodkin-Gal 说,该软件还可以纠正一些比较棘手的问题,例如将高分辨率原始数据压缩为较小文件时可能出现的压缩伪影。“计算机比人类视觉更有优势,”他说。“计算机不仅不会感到疲倦,运行速度也会更快,而且它也不会受到大小、位置、方向、重叠、部分复制和这些因素组合的影响。”
这个来自 Proofig 的构建示例展示了其程序如何比较图像的各个部分(红色矩形,左侧)并标记相同的部分,即使在拉伸或旋转的图片中也是如此。蓝线表示 AI 看到了数百个相同的特征。
图源:CDC/Proofig
当AI标记出图像的某些地方有疑问时,依然需要由专业的编辑来最终决定如何处理。例如,如果同一数据集由作者明确说明理由的情况下展示了两次,那么重复的图像可能就是合适的。一些图片重复可能是手稿整理过程中的简单复制、粘贴错误,而不是伪造。类似的问题只能通过编辑和作者之间的沟通来解决。目前开发类似的AI工具的公司约有20余家,但 Proofig 是第一个公开表示已经导入客户的公司。除了AACR,美国临床调查学会于2021年7月开始在 Journal of Clinical Investigation 和 JCI Insight 的审稿过程中使用 Proofig ,位于伦敦的SAGE 出版公司于10月开始采用该软件,为其出版的五种生命科学期刊进行图像检查。JCI 和 JCI Insight 的执行编辑 Sara Jackson 说,在JCI 中,该软件发现的问题比以前工作人员人工审查的时候要多一些,但是编辑对 Proofig 给出的警告进行人工复核依然很有必要,“我们真的觉得严谨的数据是期刊的基石,我们认为这值得花时间和金钱,” Jackson 说。在 AACR,Evanko 透露许多作者很高兴在发表之前就提示他们注意图片重复错误。还没有采用AI图像检查的出版商提到了成本和可靠性的问题,PLOS 的一位发言人说,他们密切关注那些能够 "可靠地识别常见的图像完整性问题并且可以大规模应用 "的AI工具的进展。Elsevier 表示自己旗下的一些期刊在出版前对所有接受的论文进行筛选,"使用软件工具和人工分析相结合 "来检查图像的问题。
在AI已经变得足够有效而且成本低廉的时候,业内专家表示,一波自动化图像检查的浪潮可能会在未来几年席卷科学出版行业,就像使用软件检查抄袭在十年内成为常规程序一样。但是从长远来看,对AI检查的依赖也可能会促使造假者使用AI来欺骗AI,就像一些人通过调整文本来逃避抄袭检查一样。
德国海德堡 EMBO Reports 的主编 Bernd Pulverer 表示:造假者可能会了解这种软件的工作原理并使用 AI 制作人工和AI都无法检测到的虚假图像。尽管还没有人表明此类图像出现在研究论文中,但去年发布在 bioRxiv 上的一份预印本表明,有可能制作与真实数据无法区分的生物图像的伪造版本,例如蛋白质印迹。Pulverer说:“我担心我们正在与基于AI技术(进行图像伪造)的人进行军备竞赛,这可能导致无法找到的深度伪造。” 参考文献:
https://www.nature.com/articles/d41586-021-03807-6
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方